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摘 要 :底层 虚拟 机 LLVM 是 一 个 广泛 使 用 的 编译 框架 ,其 中 间 表 示 IR 中 包含 有 丰富 的 程序 分 析 信 息 , 众 多 以 LLVM 
为 平台 的 相关 工作 均 以 IR 为 基础 开展 。 数 据 依赖 关系 在 错误 检测 、 定 位 及 程序 调试 等 领域 有 着 重要 应 用 。 基 于 IR 
的 数据 依赖 关系 计算 多 采用 串 行 选 代 方 式 ， 但 在 应 对 较 大 规模 IR 文件 时 可 扩展 性 不 够 理想 。 对 此 ， 进 行 了 数据 依 
赖 关系 计算 中 指令 读 写 的 可 并 行 性 挖 气 ， 结 合 图 形 处 理 器 并 行 计算 优 执 ,提出 一 种 基于 LLVM R 的 数据 依赖 关系 
并 行 计算 方法 DRPC。 该 方法 以 代为 输入 ,采用 CPU-GPU 双 端 协同 方式 实现 程序 数据 依赖 关系 的 高 效 计算 。 实 验 
结果 表明 ， 针 对 基准 程序 集 SPEC, DRPC 分 别 在 直接 及 传递 数据 依赖 关系 计算 上 了 348x 和 4.91x 的 加 速 
比 。 
关键 词 : 底层 虚拟 机 ; 中 间 表 示 ; 数据 依赖 ; 图形 处 理 器 ; 可 扩展 性 
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Approach of parallel data dependence relation computation based on LLVM IR 


Zhu Yan, Zhong Lujie 
(College of Information Engineering, Capital Normal University, Beijing 100048, China) 


Abstract: The low level virtual machine is a widely used compiler framework. Its intermediate representation contains 
abundant program analysis information, and many related work based on program analysis takes a basis of IR. Data 
dependence plays an important role in fault detection, fault location, and program debugging. IR-based data-dependence 
computing often adopts serial iterative approaches, such approaches usually suffer scalability issues when dealing with 
larger-scale IR contents. To address above issues, the parallelism mining of instructions reading and writing in data 
dependence calculation is carried out. Combined with the parallel computing advantages of graphics processing unit, a 
parallel computing method DRPC based on LLVM IR is proposed, which accepts IR as inputs, and achieves efficient 
program data dependence computation through a CPU-GPU cooperation way. The experimental results show that DRPC's 
highest speedup is 3.48x and 4.9x respectively in the direct and transitive data dependence computation with benchmark 
SPEC. 
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数据 依赖 两 个 类 别 。 与 数据 依赖 相关 的 定义 如 下 : 


di 定义 1 BAE n 条 有 序 执行 的 语句 构成 的 语句 序列 
LLVM (low level virtual machine， 底 层 虚拟 机 ) 是 一 个 S14,S2....,Sn 《n>2) , EP, S; RARAWA, Sh 称 为 终点 语 

开源 的 编译 框架 ， 它 提供 一 种 基于 SSA (static single Jj, 其 余 称 为 中 间 语 句 。 相 邻 语 句 间 的 依赖 关系 Di (1<i<n-1) 

assignment) 的 中 间 表 示 (intermediate representation, IR) , 形成 的 依赖 序列 D= (D: Dz ...,Dn-1) 称 为 依赖 链 站 。 

并 以 该 表示 作为 后 续 优化 及 其 他 相关 工作 的 基础 由 。IR 中 包 将 语句 5; 的 内 存 读 操作 变量 集 记 做 read(S), W6 S; 的 

含有 丰富 的 程序 分 析 信 息 。 数 据 依赖 分 析 是 一 种 重要 的 程序 内 存 写 操作 变量 集 记 做 write(S)。 

分 析 技 术 ， 在 程序 优化 、 维 护 及 调试 等 众多 方面 有 着 广泛 的 直接 数据 依赖 〈 依 赖 链 长 度 为 2， 即 n=2) 的 相关 定义 

应 用 2 。 如 : 以 指令 间 的 依赖 关系 为 指导 进行 的 指令 调度 及 如 下 [7]; 

以 程序 实体 间 的 依赖 关系 为 依据 实施 的 更 精准 错误 定位 等 定义 2 流 依赖 (flow dependence, FD) 。 若 write(S;) 

DI, ET. LLVM IR 的 数据 依赖 分 析 一 般 采 用 串 行 迭 代 的 方 Nread(Si+7) Ð, i-1,2,...,n-1, Df S; I Sii 间 存 在 流 依赖 ， 

式 ， 这 样 的 方式 在 运用 于 较 大 规模 程序 的 数据 依赖 关系 计算 W Si FD Sii. 

时 可 扩展 性 表现 不 够 理想 。 定义 3 反 依 赖 Canti dependence, AD) 。 若 read (Si) 
c E fiwrite(Si.7) Ð, i-1,2,...,nh-1, Bk S; 和 Sici 间 存 在 反 依 赖 ， 

E LE 记 作 : SiAD Sisi. 

1.1 数据 依赖 定义 4 输出 依赖 (output dependence, OD) 。 若 write 
数据 依赖 是 一 类 典型 的 依赖 分 析 方法 ， 主 要 反映 程序 语 (SDNwrite(Si1) ze, i-12,..,n-1, MER Si 和 Sic: 间 存 在 

句 间 需 要 遵守 的 读 写 依赖 关系 。 根 据 语句 间 是 否 存在 多 个 连 依赖 ， 记 做 $i OD Sisto 

续 的 数据 依赖 关系 ， 可 将 数据 依赖 分 为 直接 数据 依赖 及 传递 特别 地 ， 当 n>2 时 ， 若 起 点 语句 和 终点 语句 间 存 在 多 个 
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连续 的 、 具 有 传递 特征 的 数据 依赖 关系 ， 则 称 这 样 的 关系 为 通过 对 相关 读 写 指令 的 特征 追溯 ， 可 以 提取 出 数据 依赖 关系 
传递 依赖 。 计算 所 需 的 程序 分 析 信 息 。 例 如 可 通过 追溯 IR 中 的 store 和 


定义 5 ”传递 依赖 (transitive dependence, TD) 。 对 load 指令 并 实施 分 析 ， 计 算 获 得 数据 依赖 关系 计算 所 需 的 


于 语句 序列 Si, Say ,Sa Sp. ZEE) SCRI 5; 间 满 足 如 下 条 Write 集 和 Read 集 ， 进 而 完成 数据 依赖 关系 的 相关 计算 。 
件 : 以 图 1(a) 所 示 程 序 片段 为 例 ， 在 IR PRIES a b, d 
write(Sm)Nread(Sm+1) Zo (<m<j-1), 相关 的 内 存 读 写 指令 ， 用 Suec 表示 图 1(b) 中 标志 相关 的 


则 称 SCRI 5; 间 存在 传递 依赖 关系 ， 记 做 S; TD 9。 值得 store R, Siar 表示 图 1b) 中 标志 中 相关 的 load 指令 。 可 


注意 的 是 ， 由 于 存在 传递 依赖 关系 的 语句 序列 中 相 邻 语 句 间 知 Read  (Ssoe)-(1) 5  Write(Ssoe)-(90a] , Read 
均 存 在 流 依赖 关系 ， 因 此 该 序列 也 将 形成 一 条 流 依赖 链 。 (Sioaai)={ Wa }, Write (Sioaa)={ %0 }， 由 于 Write(Ssirei) 
以 图 1(a) 所 示 程 序 片段 为 例 ， 由 于 write(S2) = {a}, NRead(Sioadi) DB， 进而 可 计算 出 So 和 Ssoret 间 的 流 依 赖 关 
read(S3)={a}, write(S3)={b}, read(Ss)2 (b), write(Ss)-(d], 系 。 其 特征 追溯 路 线 参见 图 1(b) 中 的 带 第 头 弧 形 虚线 。 
有 Write(Sz)Read(S:3)2 H. write(S3)Nread(S5) $B， 因 此 , 在 1.4 ÆFIR 的 数据 依赖 关系 计算 并 行 性 分 析 
52 与 $5 间 存 在 传递 依赖 关系 。 直接 数据 依赖 关系 计算 中 的 并 行 性 . 直接 数据 依赖 关系 
naion Ars: ouind usi [5-77 的 计算 需要 考虑 起 点 指令 和 终点 指令 间 的 相关 读 写 交集 。 一 
2 DAA 方 面 ， 可 利用 不 同 起 点 指令 与 终点 指令 间 的 非 连续 读 写 交集 
int func() iouis d 特征 进行 计算 任务 划分 ， 另 一 方面 ， 也 可 充分 利用 相关 指令 
-—— fib = alloca i32, align 4 言 息 的 读 取 及 数据 依赖 关系 更 新 的 访 存 特性 进一步 获得 数据 
1: int a,b,c; oc = alloca i32, align 4 
Sz a=1; %d=allocai32,align4 —  @ 并 行 性 。 
$; b=a+l; ET 传递 数据 依赖 关系 计算 中 的 并 行 性 . 传递 数据 依赖 关系 
- MEME or ^ "e 的 计算 虽然 具有 动态 性 ， 但 仍然 具备 较 好 的 数据 并 行 特征 ， 
Se: if(d > 10){ 1 例如， 可 调度 多 个 线程 同时 计算 不 同 起 点 指令 、 终 点 指令 与 
|i? 57 retumc;] S g "radit i72 vc align 4 同一 中 间 指 令 之 间 的 读 写 交集 。 
Se P - gu Tree A hr 18 本 文 提 出 一 种 基于 LLVM IR 的 、 以 GPU 为 环境 的 数据 
jt | edat ER 。 依赖 关系 并 行 计算 方法 ， 通 过 CPU-GPU 双 端 联合 的 方式 实 
es 岗 数据 依赖 关系 的 高 效 计 算 ， 具 体 包括 : 
a) 一 种 面向 数据 依赖 关系 计算 的 CPU-GPU 数据 映射 方 
(a) (b) 法 ， 在 有 效 隐藏 数据 映射 延迟 的 同时 ， 进 一 步 保 障 可 扩展 性 
图 1 内 存 读 写 型 数据 依赖 关系 示例 目标 的 实现 。 
Fig.1 Example of memory read and write data dependence b) 基 于 多 流 协 同 的 直接 数据 依赖 关系 计算 方法 及 GPU 
computation based on LLVM IR 访 存 敏 感 的 双 端 协同 传递 数据 依赖 关系 计算 方法 。 在 数据 依 
1.2 LLVM IR 赖 关 系 计 算 的 过 程 中 , 针对 不 同 迭 代 间 的 耦合 关系 规避 问题 ， 
图 2 给 出 了 LLVM 编译 框架 的 构成 示意 , 主要 包含 三 个 ”在 保障 计算 准确 性 的 同时 实现 CPU 端 与 GPU 端 之 间 的 计算 
部 分 : 前 端 、 优 化 器 及 后 端 。LLVM 自 定义 的 中 间 表 示 IR ”同步 。 
是 该 框架 的 重要 组 成 部 分 ,IR 不 仅 是 LLYM 优化 及 后 端 相关 0c) 结合 GPU 存储 介质 特点 及 数据 依赖 关系 计算 任务 访 
作 的 基础 , 也 是 基于 LLVM 程序 分 析 的 各 种 应 用 的 主要 输 ” 存 特 性 考虑 的 数据 分 布 策略 ， 进 一 步 提升 访 存 效率 。 
c 入 。 IR 一 般 有 三 种 形式 : 可 读 汇编 形式 、 二 进 制 码 形式 及 内 2 ”基于 LLVM IR 的 数据 依赖 并 行 计算 框架 


Q 存 中 间 表 示 形 式 。 


OM m m | 本 文 主要 i 绕 三 个 影 自 数据 依赖 并 行 计算 的 可 扩 展 性 问 
: FEN 题 : 非 规 则 存 取 带 来 的 带宽 资源 浪费 问题 ; CPU-GPU 双 端 
| 的 高 效 协同 问题 ， 线 程 不 同步 破坏 传递 数据 依赖 计算 的 动态 
wm) ft) ge 性 问题 ， 提 出 基于 LLVM IR 的 数据 依赖 关系 并 行 计算 框架 

(data Dependence Relation Parallel Computation framework, 
DRPC)。 如 图 3 所 示 ， 主 要 由 IR 特征 指令 匹配 及 信息 提取 

(Pre_Match_ExtracD 、 数 据 适 配 存储 映射 (Info_Storage) ~ 
图 2 LLVM 编译 框架 直接 依赖 关系 计算 (Direct_DepCal)、 传 递 依赖 关系 计算 
Fig.2 LLVM compilation framework (Trans_DepCal) 和 并 行 优 化 (Parallel_Opt) 及 数据 依赖 关系 应 

LLVM IR 内 容 文本 通常 以 指令 集 形式 提供 包含 函数 声 。 用 输出 (DepOutput_forApp) 几 个 部 分 组 成 。 

明 、 基 本 块 、 变 量 声 明 及 函数 调用 等 在 内 的 各 项 程序 分 析 信 其 中 ，Pre_Match_Extract 主要 负责 基于 特征 制导 的 关键 


E. LLVM 典型 的 指令 集 类 别 包括 内 存 访问 指令 、 终端 指令 、 外 令 匹配 及 相关 程序 分 析 信 息 的 提取 ; Info_Storage 主要 负责 
二 进 制 指令 、 按 位 二 进 制 指令 以 及 其 他 指令 等 。 在 图 1(b) 中 根据 直接 依赖 关系 及 传递 依赖 关系 计算 需要 , 实现 CPU 端 及 


给 出 了 图 1(a) 所 示 代 码 片 段 的 I 信 文本 内 容 示例 。 GPU 端的 数据 信息 映射 ， Pre_Match_Extract 和 Info Storage 
1.3 基于 LLVM IR 的 数据 依赖 计算 是 DRPC 的 基础 性 组 成 。 在 适应 性 数据 映射 完成 后 ， 由 


在 LLVM IR 中 ， 与 数据 依赖 计算 相关 的 内 存 读 写 指令 Direct_DepCal 和 Trans DepCal 共同 负责 完成 各 类 数据 依赖 
包括 alloca, store 和 load 等 。 其 中 alloca 指令 表示 变量 声明 ， 关系 的 并 行 计算 。 其 中 ，Direct_DepCal 主要 负责 直接 数据 依 
store 指令 表示 变量 的 内 存 写 操作 ,load 指令 表示 变量 的 内 存 赖 关 系 的 并 行 计算 ，Trans_DepCal 负责 在 直接 数据 依赖 关系 
取 操 作 , 并 且 三 种 指令 中 的 相关 变量 会 以 符号 “%” 进 行 标志 。 计算 完成 的 基础 上 继续 完成 传递 数据 依赖 关系 的 并 行 计算 。 


在 数据 依赖 关系 的 并 行 计 算 过 程 中 , Parallel. Opt 会 负责 实施 
进一步 的 性 能 优化 。 最 后 由 DepOutput forApp 根据 后 续 应 用 
需求 对 数据 依赖 关系 进行 组 织 和 输出 。 


数据 依赖 关系 应 用 输出 
(DepOutput forApp) 


IR 特 征 指令 匹配 及 信息 提取 
(Pre_Match_Extract) 


直接 数据 依赖 关系 计算 
(CDirect DepCal) 


传递 数据 依赖 关系 计算 
(Trans_DepCal) 


并 行 优化 机 制 CParallel Opt) 


图 3 3ET lvm ir 的 数据 依赖 关系 并 行 计算 框架 
Fig.3 DRPC framework 

同时 ， 本 文 使 用 CUDA 作为 DRPC 的 GPU 并 行 计算 环 
境 。CUDA 的 线程 模型 被 划分 为 三 个 层次 ,分别 为 线程 格 
Cgrid) 、 线 程 块 (block) 以 及 线程 (thread) 。 每 个 线程 格 
内 包含 一 定数 量 的 线程 块 ， 每 个 线程 块 内 SUM ees 量 的 线 
程 ， 并 且 每 个 线程 、 线 程 块 和 线程 格 都 拥有 。 相 同 线程 
块 中 的 线程 可 访问 同一 个 共享 内 存 区域 ， 所 : 线程 都 可 以 访 
问 全 局 内 存 。 在 进行 数据 依赖 关系 计算 时 ，DRPC 将 待 计算 
数据 按 线程 数量 划分 ， 并 利用 线程 编号 进行 数据 索引 ， 让 多 
个 线程 同时 进行 数据 依赖 关系 计算 。 
3 DRPC 具体 实现 
存储 设计 
D 指令 集 存储 设计 
三 个 向 量 var arr. inst read arr 和 inst. write arr 分 别 负 
& alloca, store 及 load 的 Write 集 和 Read 集 内 容 存储 。 
, var arr 负责 存储 IR 中 的 变量 信息 ， 其 向 量 下 标 对 应 
编号 。inst_read_arr 和 inst write arr 负责 存储 内 存 读 写 
变量 的 信息 ， 其 下 标 对 应 指令 索引 。 同 一 指令 中 的 读 写 
变量 在 向 量 inst read. arr 和 inst. write arr 中 具有 相同 下 标 ， 
也 ， 指 令 的 内 存 常 量 读 取 设置 特殊 值 -1。 图 4 给 出 了 图 
1 示例 的 指令 信息 存储 示意 ,以 图 1 的 第 一 个 store 指令 为 例 ， 
变量 %a 在 var arr 中 的 下 标 为 0, 则 该 下 标 也 是 %a 的 变量 编 
号 。 那 么 在 向 量 inst write arr 下 标 为 0 的 位 置 中 ， 存 入 %a 
的 编号 0。 在 向 量 inst_read_arr 下 标 为 0 的 位 置 中 ， 则 存 入 
表示 常量 1 的 特殊 值 -1。 


var. arr: 


0 1 2 3 4 5 6 7 8 9 10 
Es [sr Te Te Tom o T To Ten emen —] 


inst read arr: 


[nst wr jte arr: 


| 


zk 
uu 
ia 


store i32 1, i32* 90a, align 4 


图 4 特征 指令 集 存储 设计 


Fig.4 Design of characteristic instructions set storage 
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2) 数据 依赖 关系 存储 
数据 依赖 信息 以 矩阵 Matrix 方式 存储 ,Mairix 的 定义 如 
X (OD. 


rut 


Matrixli, j] - (ND, FD, AD,OD,TD} 
Gi, j =0,1,2,...,n-1) 


其 中 : i, j 表示 指令 Inst; 和 Inst; 的 指令 索引 。 取 值 VD FD, 
AD.OD 和 TD 分 别 表 示 Insti 和 Inst; 间 不 存在 数据 依赖 关系 、 
存在 流 依赖 关系 、 存 在 反 依 赖 关 系 、 存 在 输出 依赖 关系 及 存 
在 传递 依赖 关系 。 
3.2 ”特征 制导 的 IR 指令 预 处 理 

DRPC 中 的 Pre_Match_Extract 主要 负责 IR 指令 的 分 析 
预 处 理工 作 。 首 先 ， 根 据 特 征 关键 词 alloca, store. load, 
M IR 文本 中 筛选 出 待 分 析 指 令 。 之 后 根据 指令 的 组 织 模式 提 
取 数 据 依赖 计算 所 需 的 信息 。 同 时 , 本 文 主要 关注 IR 级 别 n 
间 令 间 的 数据 依赖 关系 ， 对 于 循环 结构 ， 本 文 直接 实施 指令 
言 息 提取 ， 并 分 析 两 两 指令 间 的 数据 依赖 关系 。 


(1) 


dl 待 分 析 指 令 的 简要 组 织 模式 及 描述 
Tablel Brief organization mode and description of the instructions to be 
analyzed 
组 织 模式 描述 
store OPType OP)， f ee 
ah 读 取 OP, 的 值 ， 并 赋 给 OP; 
OPType OP; 
OP:- load OPType, xiu gabd " 
OP; 从 内 存 中 加 载 数据 ， 并 将 该 值 赋 给 OP 
OPType OP, 


OP;-alloca OPType 声明 变量 OP1/， 并 在 内 存 中 为 OP 开辟 空间 

表 1 归纳 了 三 种 待 分 析 指 令 的 组 织 模式 ， 并 给 出 了 相应 
DR, HP OP; 5 OP: 代表 指令 操作 对 象 ，OP7ype RRE 
量 的 数据 类 型 。 
Pre_Match_Extract 主要 工作 过 程 的 算法 描述 如 算法 1 所 
示 ， 其 中 Match, xy ) 表 示 对 传 入 的 原始 IR 指令 x 进行 关键 
指令 匹配 ， 并 将 匹配 所 得 的 指令 类 型 返回 给 y。 算 法 1 将 逐 
行 处 理 IR. 原始 信息 文本 ， 通 过 调用 Mant Inst, Inst. Type ) 
完成 了 中 关键 指令 的 匹配 CfT 1-20 ; ALEN alloca 指令 ， 


lm 
出 


则 将 所 提取 的 指令 关键 信息 存 入 var arr. GT 3-5) ; 若 匹 配 

为 store 或 load 指令 ， 则 存 入 inst read arr 3X inst write arr 
(fr 6-9) 。 

算法 1 Pre Match Extract 

输入 : IR 信息 

输出 : var arr, inst read arr 以 及 inst_write_arr 


1. for each Inst in IR 

2. Match( Inst, Inst Type ); 
3. if Inst Type == alloca 

4. var arrcalloca 指令 信息 
5. end if 

6. if Inst. Type == 
7. inst read piedi e e 息 

8 inst write arr— 5j HEA EE 

9. end if 

10. end for 

3.8 基于 多 流 协 同 的 基础 数据 依赖 关系 计算 

在 数据 依赖 关系 计算 部 分 ，DRPC 首先 由 Direct. DepCal 
完成 直接 的 数据 依赖 关系 计算 ， 主 要 包括 流 依赖 、 反 依赖 和 
输出 依赖 等 依赖 关系 的 计算 。 Direct_DepCal 采用 多 流 协同 的 
方式 进行 依赖 关系 的 计算 。 图 5 给 出 了 基于 多 流 协 同 的 直接 
数据 依赖 关系 计算 的 工作 机 制 示意 。 


( store || load ) 
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Stream 0: 
Info Storage | GPU_Direct_Kernel Data Return | ee 
Stream 1: 
| Info_Storage GPU_Direct_Kernel Data_Return ] 


图 5 多 流 协 同 计算 的 工作 机 制 
Fig.5 Multi-stream collaborative computing mechanism 

两 个 流 Stream0 及 Streaml 以 流水 线 方式 分 别 执行 数据 
复制 、 内 核 函 数 执行 及 计算 结果 的 返回 。 例 如 ， 在 Stream0 
完成 数据 映射 工作 后 ， 将 开始 执行 GPU_Direct_Kernel 进行 
直接 依赖 关系 的 并 行 计 算 ， 与 此 同时 Streami 调用 
Info Storage 进行 数据 映射 。 当 Stream0 结束 
GPU_Direct_Kernel 执行 后 ， 会 将 直接 数据 依赖 信息 回 传 至 
CPU 端 ， 同 时 Streaml 启动 GPU_Direct_Kernel。 其 中 ， 
GPU Direct Kernel 通过 计算 inst read arr 和 inst write arr 
的 交集 来 获得 直接 数据 依赖 关系 ， 上 县 体 计算 方法 如 式 (2) 所 
示 。 在 式 2) 中 ，Insts 和 Inste 分 别 代 表 起 点 指令 和 终点 指令 ， 
s 和 e 分 别 对 应 这 两 条 指令 的 索引 。 


FD, inst _ write. arr[s] == inst _ read | arr[e] 


n 


Matrix s, e] 2 4 AD, inst. read... arr[s] — inst. write. arrle] (2) 
OD, 若 inst _ write, arr[s] = inst _ write, arr[e] 

算法 2 给 出 了 CPU Direct DepCal 的 算法 描述 ， 此 算法 
要 负责 CPU 端的 相关 工作 。 其 中 ，Info_Storage(x) 表 示 
x 完成 数据 映射 工作 ; GPU_Direct_Kernel(x) 表 示 由 流 x 
fT GPU 内 核 函 数 ; Data_Return(x,y,z) Ez Hift x T4 y [n 
至 z。 对 于 程序 中 的 每 一 个 函数 f，CPU_Direct_DepCal 首 
调用 Info_Storage(Stream0), 由 Stream0 进行 所 需 的 数据 映 
JE, 为 inst read. arr 及 inst. write arr 在 GPU 端 开 辟 存 储 
间 d Read Arr 和 d_Write_Arr， 以 及 为 直接 数据 依赖 关系 
Depaiea. 开辟 GPU 端 存储 空间 d_Matrix〈 行 1-2) ; 随后 
调用 GPU_Direct_Kernel(Stream0) 进 行 直接 数据 依赖 关系 计 
4 Cfr 3 ) 并 在 计算 完成 后 调用 
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输入 : d Read Arr, d Write Arr 以 及 d. matrix 
58: 包含 直接 数据 依赖 信息 的 集合 d. matrix 


1. 根据 线程 号 及 线程 块 号 获得 指令 索引 s e 
2. Init(Share W, s, e); 
3. Init(Share R, s, e); 
4. if Share W[s] == Share R[e] 
5. d Matrix[s, e] —FD; 
6. end if 
7.if Share R[s] == Share W[e] 
8.d Matrix[s, e] —AD; 
9. end if 
10. if Share W[s] == Share W[e] 
11. d Matrix[s, e]43—OD; 
12. end if 
3.4 GPU 访 存 敏感 的 双 端 协同 传递 数据 依赖 关系 计算 
在 Direct DepCal 计算 结果 的 基础 上 ，DRPC 将 由 
Trans_DepCal 完成 传递 数据 依赖 关系 的 计算 。 在 该 阶段 ， 需 
要 先进 行 流 依赖 链 的 寻找 。 对 于 有 序 执行 的 指令 序列 
InstiInsti.1,...,Inst(j»i), WORI i 了 判断 Inst; 5j Inst; 
之 间 是 否 存在 流 依 赖 链 的 方法 如 式 3) 所 示 。 
Matrix[i, i +1] == FD 
^Matrix[i 41,142] -- FD (3) 
^... ^ Matrix[ j -1, j| -- FD 

流 依赖 链 的 构建 是 一 个 动态 的 过 程 ， 其 长 度 会 随 中 间 指 
令 的 不 断 加 入 而 增长 。 算 法 4 和 5 分 别 给 出 了 
CPU Trans DepCal 及 GPU Trans Kernel 的 算法 描述 ,其 中 ， 
函数 Map_midNumber(x) 负 责 映射 中 间 指 令 Inst 的 指令 索引 
x; GPU Trans Kernel(k)&zy [RH K% GPU_Trans_Kernel 中 
传 入 参数 ko 在 算法 4 中 ， 首 先 为 Depaiea 分 配 GPU 端 存储 
空间 d Trans Mat T 2) ; 依次 处 理 中 间 指 令 集 Smidins 中 的 


Data_Return(Stream0,d_matrix, Depdirect) ， Stream0 将 
d_Matrix 回 传 至 集合 Depas , 同时 启动 
Info_Storage(Stream1) 进 行 所 需 的 数据 映射 工作 ( 行 4) ; 之 


Fi 调 GPU_Direct_Kernel(Stream1) 及 
Data, Return(Streaml,d, matrix, Depaiec); Streaml 调用 核 
函数 进行 下 一 次 计算 及 数据 回 传 ( 行 5-6) 。 


算法 2 CPU_Direct_DepCal 

输入 : inst read arr, inst write arr 

输出 ， 直接 数据 依赖 关系 集 Depasea 

. for each f do 

. Info. Storage(Stream0); 

GPU Direct. Kernel(Stream0); 

. Data Return(Stream0,d. Matrix,Depaiea)& & Info. Storage(Stream1); 
GPU Direct. Kernel(Streaml1); 

. Data Return(Streaml,d Matrix,Depaiea); 


MO € Bog 一 


. end for 

算法 3 给 出 了 GPU Direct Kernel 的 算法 描述 ， 其 中 
Share W 和 Share R 是 为 了 减少 访 存 延 迟 而 设置 的 共享 数 
组 ， 用 于 存储 d Read Arr. d Write Arr 中 的 数据 ， 函 数 
Init(Array, x, y) 表 示 利 用 索引 信息 x 和 y 初始 化 数组 Array. 

和 法 3 首先 通过 线程 号 、 线 程 块 号 计算 起 点 指令 Insts 和 终点 
指令 Inste 的 指令 索引 s 和 e( 行 1)， 然 后 调用 Init(Share_W, 
s, e) 和 Init(Share_R, s, e) 将 d Write Arr, d Read Arr 中 的 数 
据 映 射 至 Share_W 以 及 Share_R( 行 2-3) ， 随 后 根据 式 2) 
计算 直接 数据 依赖 关系 ， 最 后 存储 至 d_Matrix 〈 行 4-12) 。 
算法 3 GPU Direct Kernel 


各 条 指令 Inst, 3kfg GPU 端 映射 中 间 指 令 索 引 k: 然后 调用 

GPU_Trans_Kernel(k)， 构 建 并 分 析 含 有 中 间 指 令 的 依赖 链 
( 行 3-6) 。 计 算 结 束 后 将 GPU 端的 d Trans Mat 回 传 至 

Depirans (ÍT 7) 。 

算法 4 CPU Trans DepCal 

输入 : 直接 数据 依赖 信息 集 Depaiea 

输出 : 传递 数据 依赖 信息 集 Depuans 

1. for each f do 

2.d Trans Mat-—Depaiec; 


3. foreach Insti in Suiains do 
4. k«-—Map midNumber(Inst.); 
5. GPU Trans Kernel(k); 
6. end for 
7. Depuass—d, Trans Mat; 
8. end for 
在 算法 5 中 ， 首 先 获 取 线 程 索引 threadId 和 线程 块 索引 
blockId( 行 1); 之 后 利用 上 述 信息 调用 Init(Share_k, threadId, 
blockId) 初 始 化 共享 数组 Share k (fr 2) ; 并 通过 寻找 以 
blockid 为 起 点 指令 索引 ，threadld 为 终点 指令 索引 的 流 依赖 
链 来 计算 传递 数据 依赖 关系 行 3-5) 。 
算法 5 GPU_Trans_Kernel 
输入 : 包含 直接 数据 依赖 关系 的 d_Trans_Mat X k 
输出 : 包含 传递 数据 依赖 关系 的 d Trans Mat 
1. 获取 线程 索引 threadId 和 线程 块 索引 blockId 
2. Init(Share_k, threadId, blockId); 
3.ifd Trans Mat[blockId, k] == Share k[k, threadId] then 
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4.d Trans Mat[blockld, threadId] —TD; 计算 操作 ， 合 并 访 存 效果 不 佳 。 当 指令 数量 较 大 时 ， 活 跃 线 

5. end if 程 较 多 ， 数 据 访问 能 够 较 好 地 隐藏 访 存 延 迟 ， 线 程 能 够 获取 

3.5 并行 优化 机 制 的 共享 数据 资源 增多 , 任务 并 行 度 和 资源 并 行 度 都 表现 较 好 。 
在 Trans DepCal 阶段 ，Parallel _Opt 会 就 异 构 计 算 同 步 4.2.1 时 间 开 销 

及 数据 分 布 等 问题 进行 有 针对 性 的 优化 。 1) 在 传递 数据 依赖 表 2 给 出 了 DRPC 的 数据 依赖 关系 计算 时 间 数 据 ， 其 中 


关系 计算 时 ， 会 实施 中 间 指 令 添加 工作 ， 即 在 起 点 指令 和 终 。 ”SDIR 和 STRA 分 别 表示 未 并 行 化 ( 串 行 ) 的 直接 数据 依赖 和 
点 指令 之 间 添 加 中 间 指 令 以 完成 依赖 链 的 构建 与 分 析 。 每 对 ”传递 数据 依赖 关系 计算 的 时 间 数 据 ; PDIR 和 PTRA 分 别 表示 
一 个 新 的 依赖 链 进 行 分 析 ， 都 需要 依靠 其 余 依 赖 链 的 分 析 结 ” 本 文 提出 的 直接 数据 依赖 关系 并 行 算 法 和 传递 数据 依赖 关系 
果 ， 所 以 新 依赖 链 的 构建 必须 在 其 余 依赖 链 完 成 计算 的 基础 ” 计算 并 行 算 法 的 运行 时 间 数 据 ,并 且 PDIR 和 PTRA 包含 CPU 
上 进行 。 为 了 保证 新 依赖 链 分 析 的 准确 性 ， 双 端 协同 会 在 。 端 向 GPU 端的 数据 传输 时 间 ; 图 7 为 直接 数据 依赖 关系 计算 
GPU 端的 本 次 分 析 结 束 之 后 ， 再 从 CPU 端 传 入 构建 新 依赖 。 串 并 行 时 间 比 较 。 图 8 为 传递 数据 依赖 关系 串 并 行 时 间 比 较 。 
链 所 需 的 数据 ， 从 而 使 线程 同步 ， 避 免 遗 漏 其 余 依 赖 链 的 计 由 于 254.gap 及 183.equake 的 数据 与 186.crafty 及 176.gcc 的 
算 结果 。2) 考虑 到 访 存 效率 ， 数 据 依 赖 关 系 以 matrix 形式 。 数据 存在 数量 级 差异 ， 故 分 别 以 (a) 和 (b) 两 部 分 给 出 。 此 外 ， 
存储 在 全 局 内 存 中 , 并 在 数据 划分 时 利用 GPU 全 局 内 存 的 合 。” 图 9 还 给 出 了 直接 数据 依赖 关系 和 传递 数据 依赖 关系 计算 的 
并 访问 机 制 [8]， 对 matrix 按 条 带 状 划分 ， 并 建立 中 间 指 令 索 加速 比 数据 。 在 图 9 中 ，DIRS 和 TRAS 分 别 对 应 直接 数据 依 


引 k 与 起 点 指令 索引 之 间 的 索引 映射 。 在 这 样 的 方式 下 , 一。 ” 赖 关 系 计算 和 传递 数据 依赖 关系 计算 的 加 速 比 。 
个 线程 束 访问 的 全 局 内 存 地 址 范围 如 式 4) 所 示 : 表 2 数据 依赖 计算 时 间 数 据 
range={k* N+j|je{0...31}} (4) Table 2 Data dependence computation experiment time data 
其 中 ，N 代表 Matrix 宽度 ，j 代表 线程 号 ， 同 时 映射 为 终点 IR IR sore A 传递 
SDIR PDIR 流 依赖 反 依赖 STRA PTRA 
指令 索引 。 内 存 地 址 连续 的 range 可 充分 利用 全 局 内 存 的 合 实验 用 例 大 小 FH load 依赖 依赖 
并 访问 优势 ， 减 少 对 全 局 内 存 的 访问 次 数 。 此 外 ， 由 于 中 间 «m «oo qoo "^ m Cn agg "qoo 
指令 与 其 他 指令 形成 的 数据 依赖 关系 被 访问 的 频率 较 高 ， 故 254.gap 201 4662 1600 7.05 243 1550 1255 584 114896 634 180 
将 此 部 分 数据 存储 在 共享 内 存 中 ,以 提高 数据 访问 的 局 部 性 ， 183.equake 347 6934 2688 21.97 9.6 3636 2951 944 19069.93 4197 249 
进而 提升 访 存 效率 。 186.crafty 547 10676 2816 3326 12.37 7287 6038 5230 102517 22228 353 
3.6 数据 依赖 关系 应 用 输出 176.gcc-1 1,913 34663 10892 163.35 53.72 6150 3491 2697 186540.55 37964 1247 
数据 依赖 关系 计算 完成 之 后 ，DRPC 可 根据 后 续 应 用 的 176.8cc-2 3,193 54772 16010 294.33 84.66 20732 13823 6324 15565.42 3481 8521 
不 同 需求 进行 数据 依赖 关系 的 组 织 和 输出 。 图 6 给 出 一 种 图 
1b) 的 数据 依赖 图 输出 示例 。 
300 
250 
200 
150 
100 | 
= 1 50 S N 
图 6 ”图 1(b) 的 数据 依赖 图 20-5 ms Hs Ñ 
: : gap equake crmfy gccl gcc-2 
Fig.6 Data dependence graph of Figure 1(b) 
其 中 椭圆 节点 代表 指令 ， 并 且 指 令 以 简单 等 式 的 形式 组 织 ， 到 7 接 数 据 依 赖 关 系 计 算 串 并 行 时 间 比 较 
等 式 左边 代表 指令 中 进行 写 操作 的 变量 ， 等 式 右边 代表 指令 Fig.7 Serial time and parallel time comparison of direct data 
中 进行 读 操作 的 变量 ; Entry 为 入 口 指令 节点 ; 带 箭头 弧 形 虚 dependence computation 
线 代表 指令 间 的 流 依赖 关 系 。 
4 实验 结果 及 分 析 " mSTRA SPTRA TM a STRA SPIRA 
4.1 实验 环境 " 1o 
本 文 实验 环境 配置 为 Intel Core i7 CPU+NVIDIA 2 2 
GeForce GTX 1050Ti 。 实 验 基准 程序 为 SPEC 2000， 所 有 实 5 s | 
v OHEA 4 "m 
验 均 IR 文件 为 输入 。 Mm E a S 
4.2 实验 结果 ew Sind rafy Liu dez 
实验 选取 了 SPEC 2000 中 的 254.gap. 183.equake, (a) (b) 
186.crafty 以 及 176.gcc 程序 作为 实验 用 例 。 表 2 23 Y ES X 8 传递 数据 依赖 关系 计算 串 并 行 时 间 比 较 
实验 用 例 中 store 指令 和 load 指令 数量 的 统计 结果 ， 二 者 在 Fig.8 Serial time and parallel time comparison of transitive data 
数据 依赖 相关 指令 总 数 中 占 比 均 超过 81%。 同时, 结合 GPU dependence computation 


端 全 局 内 存 的 合并 访 存 机 制 以 及 同 线程 块 内 的 数据 共享 ， 通 分 析 图 7 可 知 ， 对 所 有 实验 程序 ，PDIR 的 在 时 间 性 能 
过 线程 与 指令 的 一 一 映射 实现 了 一 个 线程 束 同时 访问 连续 EF SDIR。 当 IR 信息 文本 规模 较 大 时 ，PDIR 相 较 于 
32 条 指令 的 支持 ,进一步 提高 了 全 局 内 存 的 访 存 效率 。 当 指 。 SDIR 表现 出 了 更 为 明显 的 时 间 优 势 。 直 接 数 据 依赖 关系 计算 
令 数 量 较 少时 , 线程 数量 较 少 , 导致 计算 任务 的 并 行 度 较 低 ， 的 加 速 比 由 2.29x 升 至 3.48x。 这 主要 是 由 于 活跃 线程 的 数量 
此 时 线程 对 全 局 内 存 的 访问 无 法 友好 地 隐藏 线程 的 数据 依赖 ”增多 ， 多 流 协同 计算 的 策略 有 效 地 隐藏 复制 数据 带 来 的 延迟 


ChinaXiv 合 作 期 刊 
录用 定稿 k R, P: 一 种 基于 LLVM 中 间 表 示 的 数据 依赖 并 行 计算 方法 第 37 卷 第 2 期 
所 带 来 的 性 能 提升 。 103% Litvak 等 人 1 提出 了 一 种 域 敏 感 的 传递 依赖 关系 分 析 
在 图 8 中 ， 当 实验 数据 规模 较 小 时 ， 图 8(a) 中 STRA 与 ”算法 ,解决 了 大 型 结构 体 变量 之 间 传 递 依赖 关系 的 分 析 问 题 ， 
PTRA 时 间 差 值 较 小 ， 加 速 比 仅 为 1.8x， 这 主要 是 由 于 数据 ” 该 算法 在 内 存 消耗 上 降低 了 31%。 
量 较 小 ，GPU 端 活跃 线程 数量 较 少 ， 传 递 依 赖 关 系 计 算 未 能 并 行 化 的 数据 依赖 分 析 . Minjang Kim 等 人 0 提出 了 一 
很 好 地 隐藏 访 存 延 迟 。 而 当 实 验 数据 规模 增 大 , 在 图 8(b) 中 ， ”种 可 扩展 的 动态 数据 依赖 分 析 框 架 SD*， 该 框架 利用 流水 线 
于 合并 访问 机 制 及 共享 内 存 的 合理 使 用 ， 访 存 效率 提高 ， 和 数据 并 行 的 混合 并 行 模型 进行 数据 依赖 分 析 ， 减 少 了 时 间 
同时 活跃 线程 的 增多 较 好 地 隐藏 了 访 存 延迟 ， 令 传递 闭 包 开销 ， 实 验 表明 在 8 核 和 32 核 处 理 器 上 分 别 获得 了 4.1x 和 
行 计 算 的 加 速 比 提升 至 了 4.91x。 9.7x 的 加 速 比 。Yu 等 人 03 提 出 一 种 将 分 析 任 务 划分 为 独立 片 
的 方法 ， 该 方法 通过 并 行 分 析 不 同 的 片 生成 子 图 ， 最 终 由 编 
podia 译 器 自动 将 其 组 合成 完整 的 数据 依赖 图 。 实 验 表明 ， 对 于 多 
个 知名 的 基准 程序 ， 该 并 行 方案 将 分 析 时 间 缩 得 了 几 个 数量 
级 。Li 等 人 09 提 出 了 一 种 无 锁 的 并 行 数 据 依 赖 分 析 方 法 ， 该 
方法 为 每 个 内 存 地 址 分 配 一 个 处 理 存储 器 访问 的 工作 线程 ， 
同时 线程 并 行 执行 分 析 算 法 ， 该 方法 相 较 于 其 未 并 行 化 的 数 
据 依赖 分 析 方法 获得 了 2.1x-2.4x 的 加 速 比 。 
i 6 ”结束 语 
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针对 基于 IR 的 数据 依赖 计算 的 可 扩展 性 问题 ,本文 提出 
图 9 加 速 比 数据 了 一 种 基于 LLVM 中 间 表 示 的 数据 依赖 并 行 计算 框架 
Fig.9 Speedup of data dependence calculation DRPC。 该 框架 对 传统 迭代 方式 的 并 行 性 进行 挖掘 ， 并 解决 
4.2.2 空间 开销 了 基于 IR 的 数据 依赖 计算 在 GPU 端 中 的 数据 适 配 性 问题 与 
如 表 3 所 示 ，SDDC 与 PDDC 分 别 代表 了 未 并 行 化 的 数 ”同步 性 问题 ， 根 据 数据 访问 频率 ， 合 理 分 配 数据 ， 同 时 提高 
据 依赖 计算 和 本 文 提出 的 数据 依赖 并 行 计算 的 空间 数据 。 其 。” ”任务 并 行 性 ,实验 证 明 该 方法 能 有 效 提高 基于 IR 的 数据 依赖 
中 ，SDDC 只 涉及 到 CPU 的 内 存 使 用 ， 而 PDDCR CPUS — 计算 的 可 扩展 性 。 
空间 数据 包含 了 存储 在 页 锁定 内 存 的 数据 ， 该 部 分 的 数据 用 参考 文献 
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